单眼同时定位和映射(SLAM)在先进的驾驶员辅助系统和自主驾驶中出现,因为单个相机便宜且易于安装。传统的单眼猛击有两个主要挑战,导致定位和映射不准确。首先,估计本地化和映射中的尺度是挑战性的。其次,传统单眼SLAM在映射中使用诸如动态对象和低视差区域的不适当的映射因子。本文提出了一种改进的实时单眼血液,通过有效地使用基于深度学习的语义分割来解决上述挑战。为了实现所提出的方法的实时执行,我们仅用映射进程并行地应用于下采样的关键帧的语义分段。此外,所提出的方法校正相机姿势和三维(3D)点的尺度,使用从道路标记的3D点和真实相机高度的估计接地平面。该方法还删除了标记为移动对象和低视差区域的不恰当的角色功能。八个视频序列的实验表明,与现有的最先进的单眼和立体声猛击系统相比,所提出的单眼血压系统达到显着提高和可比的轨迹跟踪精度。该建议的系统可以通过标准GPU支持,在标准CPU上实现实时跟踪,而现有的分段辅助单眼血液则不会。
translated by 谷歌翻译
受到正规彩票假说(RLTH)的启发,该假说假设在密集网络中存在平稳(非二进制)子网,以实现密集网络的竞争性能,我们提出了几个播放类增量学习(FSCIL)方法。 to as \ emph {soft-subnetworks(softnet)}。我们的目标是逐步学习一系列会议,每个会议在每个课程中只包含一些培训实例,同时保留了先前学到的知识。软网络在基本训练会议上共同学习模型权重和自适应非二进制软面具,每个面具由主要和次要子网组成;前者的目的是最大程度地减少训练期间的灾难性遗忘,而后者的目的是避免在每个新培训课程中过度拟合一些样本。我们提供了全面的经验验证,表明我们的软网络通过超越基准数据集的最先进基准的性能来有效地解决了几个弹药的学习问题。
translated by 谷歌翻译
先前的作品已经为神经集功能建立了固体基础,以及有效的体系结构,这些架构保留了在集合上操作的必要属性,例如对集合元素的排列不变。随后,已经确定了在保持输出上保持一致性保证的同时,依次处理任何随机设置分区方案的任何置换的能力,但已建立了网络体系结构的选项有限。我们进一步研究了神经集编码功能中的MBC特性,建立了一种将任意非MBC模型转换为满足MBC的方法。在此过程中,我们为普遍MBC(UMBC)类的集合功能提供了一个框架。此外,我们探讨了通过我们的框架实现的有趣的辍学策略,并研究了其对测试时间分配变化下的概率校准的影响。我们通过单位测试支持的证据来验证UMBC,还提供了有关玩具数据,清洁和损坏的云云分类的定性/定量实验,并在Imagenet上摊销了聚类。结果表明了UMBC的实用性,我们进一步发现我们的辍学策略改善了不确定性校准。
translated by 谷歌翻译
我们提出了Styletalker,这是一种新颖的音频驱动的会说话的头部生成模型,可以从单个参考图像中综合一个会说话的人的视频,并具有准确的音频同步的唇形,逼真的头姿势和眼睛眨眼。具体而言,通过利用预验证的图像生成器和图像编码器,我们估计了会说话的头视频的潜在代码,这些代码忠实地反映了给定的音频。通过几个新设计的组件使这成为可能:1)一种用于准确唇部同步的对比性唇部同步鉴别剂,2)一种条件顺序的连续变异自动编码器,该差异自动编码器了解从唇部运动中解散的潜在运动空间,以便我们可以独立地操纵运动运动的运动。和唇部运动,同时保留身份。 3)自动回归事先增强,并通过标准化流量来学习复杂的音频到运动多模式潜在空间。配备了这些组件,Styletalker不仅可以在给出另一个运动源视频时以动作控制的方式生成说话的头视频,而且还可以通过从输入音频中推断出现实的动作,以完全由音频驱动的方式生成。通过广泛的实验和用户研究,我们表明我们的模型能够以令人印象深刻的感知质量合成会说话的头部视频,这些视频与输入音频相符,可以准确地唇部同步,这在很大程度上要优于先进的基线。
translated by 谷歌翻译
在这项工作中,我们提出了一个具有结构性图形的新型不确定性感知对象检测框架,其中节点和边缘分别用对象及其空间语义相似性表示。具体而言,我们旨在考虑对象之间的关系,以有效地将它们背景化。为了实现这一目标,我们首先检测对象,然后测量其语义和空间距离以构建对象图,然后由图形神经网络(GNN)表示,用于完善对象的视觉CNN特征。但是,精炼CNN功能和每个对象的检测结果效率低下,可能不需要,因为其中包括不确定性低的正确预测。因此,我们建议通过将表示形式从某些对象(源)转移到有向图上的不确定对象(目标)来处理不确定的对象,而且还仅在对象上改善CNN功能,因为对象被认为是不确定的,其代表性输出来自GNN。此外,我们通过在不确定的物体上给予更大的权重来计算训练损失,以专注于改善不确定的对象预测,同时保持某些对象的高性能。我们将模型称为对象检测(UAGDET)的不确定性感知图网络。然后,我们在实验中验证了我们的大规模空中图像数据集,即DOTA,该数据集由大量对象组成,这些对象在图像中具有很小至大的对象,在该图像上,我们的对象可以改善现有对象检测网络的性能。
translated by 谷歌翻译
在本文中,我们通过利用给定数据集中的规律性来有效地介绍了一种新颖的方法来系统地解决数据集凝结问题。我们没有直接在原始输入空间中凝结数据集,而是假设数据集的生成过程,其中一组可学习的代码在紧凑的潜在空间中定义,然后是一组微型解码器,它们将它们映射到原始输入空间。通过互换组合不同的代码和解码器,我们可以大大增加具有相同参数计数的合成示例的数量,因为潜在空间要较低,并且由于我们可以假设尽可能多的解码器来捕获数据集中表示的不同样式费用微不足道。这种知识分解允许以系统的方式有效地共享综合示例之间的信息,从而在压缩比和生成的示例的质量之间进行了更高的权衡。我们通过实验表明,我们的方法通过各种基准数据集(例如SVHN,CIFAR10,CIFAR100和Tinyimagenet)在各种基准数据集上实现了新的最新记录。
translated by 谷歌翻译
神经网络量化旨在将特定神经网络的高精度权重和激活转变为低精度的权重/激活,以减少存储器使用和计算,同时保留原始模型的性能。但是,紧凑设计的主链体系结构(例如Mobilenets)通常用于边缘设备部署的极端量化(1位重量/1位激活)会导致严重的性能变性。本文提出了一种新颖的量化感知训练(QAT)方法,即使通过重点关注各层之间的权重之间的重量间依赖性,也可以通过极端量化有效地减轻性能退化。为了最大程度地减少每个重量对其他重量的量化影响,我们通过训练一个依赖输入依赖性的相关矩阵和重要性向量来对每一层的权重进行正交转换,从而使每个权重都与其他权重分开。然后,我们根据权重量化的重要性来最大程度地减少原始权重/激活中信息丢失的重要性。我们进一步执行从底层到顶部的渐进层量化,因此每一层的量化都反映了先前层的权重和激活的量化分布。我们验证了我们的方法对各种基准数据集的有效性,可针对强神经量化基线,这表明它可以减轻ImageNet上的性能变性,并成功地保留了CIFAR-100上具有紧凑型骨干网络的完整精确模型性能。
translated by 谷歌翻译
整个幻灯片图像(WSI)分类是诊断和治疗疾病的基本任务;但是,精确标签的策划是耗时的,并限制了完全监督的方法的应用。为了解决这个问题,多个实例学习(MIL)是一种流行的方法,它仅使用幻灯片级标签作为一个弱监督的学习任务。尽管当前的MIL方法将注意机制的变体应用于具有更强模型的重量实例特征,但注意力不足是对数据分布的属性的不足。在这项工作中,我们建议通过使用Max-Instance(关键)功能的统计数据来重新校准WSI袋(实例)的分布。我们假设在二进制MIL中,正面袋的特征幅度大于负面,因此我们可以强制执行该模型,以最大程度地利用公制特征损失的袋子之间的差异,该袋子将正面袋模型为未分布。为了实现这一目标,与使用单批训练模式的现有MIL方法不同,我们建议平衡批次采样以有效地使用功能丢失,即同时(+/-)袋子。此外,我们采用编码模块(PEM)的位置来建模空间/形态信息,并通过变压器编码器通过多头自我注意(PSMA)进行汇总。现有基准数据集的实验结果表明我们的方法是有效的,并且对最先进的MIL方法有所改善。
translated by 谷歌翻译
在实际情况下,较大的全局图的子图可以分布在多个设备或机构之间,并且仅由于隐私限制而在本地访问,尽管它们之间可能存在链接。最近,拟议的子图联合学习(FL)方法涉及跨私人本地子图的那些缺失的链接,而分布式培训图形神经网络(GNN)。但是,他们忽略了子图中的不可避免的异质性,这是由包含全球图的不同部分的子图引起的。例如,一个子图可能属于较大的全局图中的一个社区之一。在这种情况下,天真的子图FL将从训练有异质图分布的本地GNN模型中崩溃不相容的知识。为了克服这样的局限性,我们引入了一个新的子图FL问题,即个性化的子图FL,该子图专注于相互关联的本地GNN模型的联合改进,而不是学习一个单一的全球GNN模型,并提出了一个新颖的框架,并提出了一个新型的框架,并提出了一个联合的个性化次级学习( Fed-pub),以解决它。个性化子图FL中的一个至关重要的挑战是服务器不知道每个客户端具有哪个子图。 Fed-pub因此使用随机图作为输入来计算它们之间的相似性,并使用它们执行对服务器端聚合的加权平均。此外,它在每个客户端学习一个个性化的稀疏掩码,以选择和更新聚合参数的子图相关子集。我们考虑了非重叠和重叠子图的六个数据集中的Fed-Pub在六个数据集上的子图FL性能,我们的基本上要优于相关的基线。
translated by 谷歌翻译
实时视频细分是许多实际应用程序(例如自动驾驶和机器人控制)的关键任务。由于最新的语义细分模型尽管表现令人印象深刻,但对于实时应用来说通常太重了,因此研究人员提出了具有速度准确性权衡的轻量级体系结构,以降低准确性为代价实现实时速度。在本文中,我们提出了一个新颖的框架,通过利用视频中的时间位置来加快使用跳过连接进行实时视觉任务的架构。具体而言,在每个帧的到来时,我们将特征从上一个帧转换为在特定的空间箱中重复使用它们。然后,我们在当前帧区域上对骨干网络进行部分计算,以捕获当前帧和上一个帧之间的时间差异。这是通过使用门控机制动态掉出残留块来完成的,该机制决定哪些基于框架间失真掉落。我们在具有多个骨干网络的视频语义分割基准上验证了我们的时空掩码发生器(STMG),并证明我们的方法在很大程度上可以随着准确性的最小损失而加快推断。
translated by 谷歌翻译